2017_AANE

一、AANE [2017]

《Accelerated Attributed Network Embedding》

网络分析已经成为许多实际应用中的有效工具，例如精准营销（targeted marketing）和基因分析。识别有效特征对于这些任务至关重要，但是这涉及大量的人力和大规模的工程实验。作为替代方案，network embedding 将每个节点的拓扑结构（topological structure）映射为低维的向量represetnation ，从而可以很好地保留原始网络邻近性（proximity）。已有工作表明，network embedding 可以使各种任务收益，例如节点分类、链接预测、网络聚类。
虽然现有的 network embedding 算法专注于纯网络（pure network），但是现实世界网络中的节点通常关联一组丰富的特征或属性，这称作属性网络（attributed network）。像同质性（ homophily）和社交影响（social influence）等社会科学理论表明：节点属性与网络结构高度相关，即一方的形成取决于并影响了另一方。例如，微博中用户帖子和“关注” 关系之间的强关联，论文主题和引用关系的高度相关性。在各种应用中，已有工作表明联合利用这两个信息源（即节点拓扑结构和节点属性）可以提高学习性能。受到这些的启发，论文《Accelerated Attributed Network Embedding》提出研究节点特征是否可能有助于学到更好的 embedding representation 。
此外，现实世界的网络通常是大规模的，具有大量节点和高维特征。例如，截至 2016 年，美国每月有超过 6500 万活跃的 Twitter 用户，每个用户可以发布数千条推文。这对 embedding 算法的可扩展性提出了更高的要求。属性网络 embedding 在以下三个方面具有挑战性：
- 高的时间复杂度可能是限制算法在实践中应用的瓶颈。一些工作致力于利用网络结构和属性信息来寻找低秩（low-rankrepresentation $O(n^3)$ eigen-decomposition $n$ 为节点的总数），要么采用通常收敛速度较慢的梯度下降。
- 由于异质信息（heterogeneous information）的各种组合，在网络和属性的联合空间中评估节点邻近性（node proximity）具有挑战性。另外，随着网络规模的扩大，节点属性邻近性（node attribute proximity）矩阵往往太大，无法存储在单机上，更不用说对它的操作了。因此，如果 embedding 算法也是可扩展的，那么将很有吸引力。
- 两个信息源都可能不完整（incomplete）的且充满噪音（noisy）的，这进一步加剧了 embedding representation learning 问题。
因此，鉴于数据的独有特性，现有方法不能直接应用于可扩展的、属性网络的 embedding 。为了应对上述挑战，论文研究了在属性网络上有效地学习 embedding representation 的问题。论文旨在回答以下问题：
- 如何在网络结构和节点属性组成的联合空间中有效地建模节点邻近性？
- 如何使 vector representations learning 过程具有可扩展性（scalable ）和高效（efficient）？
通过调研这些问题，论文提出了一个称作 Accelerated Attributed Network Embedding: AANE 的新框架。总之，本文贡献如下：
- 正式定义属性网络 embeding 问题。
- 提出一个可扩展的、高效的框架 AANE 。AANE 通过将节点属性邻近性纳入 network embedding，从而学到有效的、统一的 embedding representation 。
- 提出一种分布式优化算法。该算法将复杂的建模和优化问题分解为许多低复杂度的子问题，使得 AANE 能够高效地处理每个节点。
- 在三个真实数据集上验证了 AANE 的效率和效果。
相关工作：
network embedding 已经成为处理大规模网络的有效工具。人们已经从各个方面进行了努力。
- 《Scalable learning of collective behavior based on sparse social dimensions》 提出了一种 edge-centric 的聚类方案，从而提高学习效率并减轻内存需求。
- 《Distributed large-scale natural graph factorization》 提出了一种基于随机梯度下降的分布式矩阵分解算法来分解大规模图。
- 《LINE: Large scale Information Network Embedding》 通过将weighted edge 展开（ unfolding）为多个binary edge 来提高随机梯度下降的效率。
- 《Asymmetric transitivity preserving graph embedding》 设计了一种 Jacobi-Davidson 类型的算法来近似和加速 high-order proximity embedding 中的奇异值分解。
- 《Structural deep network embedding》 涉及深度架构从而有效地嵌入节点的一阶邻近性和二阶邻近性。
人们已经研究并分析了各个领域中的属性网络，并表明：通过联合利用几何结构和节点属性来提高学习性能变得越来越有希望。
- 《What's in a hashtag? content based prediction of the spread of ideas in microblogging communities》 通过利用内容和拓扑特征改善了对思想（ideas）传播的预测。
- 《Exploring context and content links in social media: A latent space method》 基于 pairwise 相似性对内容信息进行建模，并通过学习语义概念semantic concept 之间的结构相关性（structural correlation），从而将内容信息与上下文链接一起映射到语义潜在空间中。
- 《Probabilistic latent document network embedding》 通过为网络链接和文本内容找到一个联合的低维 representation，从而为文档网络提出了一个基于概率的框架。
- 《Heterogeneous network embedding via deep architectures》 设计了一种深度学习方法，将丰富的链接信息和内容信息映射到潜在空间，同时捕获跨模态数据之间的相关性。
属性网络分析不同于多视图学习。属性网络的网络结构不止一个视图，其底层属性很复杂，包括连通性（connectivity ）、传递性（transitivity）、一阶和更高阶的邻近性等等。

1.1 模型

1.1.1 基本概念

$\mathcal G=(\mathcal V,\mathcal E,\mathbf W)$ $\mathcal V=\{v_1,\cdots,v_n \}$ $n$ $\mathcal E$ $\mathbf W=\{w_{i,j}\}\in \mathbb R^{n\times n}$ $v_i$ $\mathcal N(v_i)$ $N_i$ 。
$(v_i,v_j)\in \mathcal E$ $w_{i,j}\ge 0$ $w_{i,j} = w_{j,i}$ $w_{i,j}$ $v_i$ $v_j$ $w_{i,j} = 0$ $v_i$ $v_j$ 之间不存在边。
$v_i$ $\mathbf{\vec a}_i\in \mathbb R^m$ $m$ $\mathbf A\in \mathbb R^{n\times m}$ $\mathbf{\vec a}_i$ $\mathbf A$ $i$ 行。
attributed network embedding $\mathcal G=(\mathcal V,\mathcal E,\mathbf W)$ $\mathbf A$ $v_i\in \mathcal V$ embedding $\mathbf{\vec h}_i\in \mathbb R^d$ ，使得embedding 向量能够同时保留节点的结构邻近关系、节点的属性邻近关系。所有节点的 embeddingembedding $\mathbf H\in \mathbb R^{n\times d}$ 。

1.1.2 AANE

现实世界属性网络的理想 embedding 方法需要满足以下三个要求：
- 首先，它需要能够处理任意类型的边（如，无向/有向边、无权/带权边）。
- 其次，它需要同时在网络空间和属性空间中都很好地保持节点邻近性。
- $n$ $m$ 可能很大。
为此，我们开发了一个满足所有要求的、有效的、高效的框架 AANE。这里我们将描述 AANE 如何以有效的方式联合建模网络结构邻近性和属性邻近性。
$\mathcal G$ 中的节点邻近性， AANE 提出两个假设：
- 首先，假设基于图的映射（graph-based mapping）在边上是平滑的，特别是对于节点密集的区域。这符合 “聚类假设”（ cluster hypothesis ）。
- 其次，具有更相似拓扑结构或由更高权重连接的一对节点更有可能具有相似的 embedding 。
为了实现这些目标，我们提出以下损失函数来最小化相连节点之间的 embedding 差异：
$J_{G} = \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{h}}_{j} ‖}_{2}$
$\mathbf{\vec h}_i,\mathbf{\vec h}_j$ $v_i$ $v_j$ embedding representation $w_{i,j}$ $v_i,v_j$ $\mathcal J_\mathcal G$ $w_{i,j}$ $v_i$ $v_j$ $\mathbf{\vec h}_i$ $\mathbf{\vec h}_j$ 的距离较小。
embedding representation $\mathbf H$ 也很好地保持节点属性的邻近性。
symmetric matrix factorization $\mathbf H$ $\mathbf H^\top$ attribute affinity matrix $\mathbf S\in \mathbb R^{n\times n}$ embedding representation $\mathbf{\vec h}_i$ $\mathbf{\vec h}_j$ $s_{i,j}$ 相同。在数学上，该损失函数定义为：
$J_{A} = \sum_{i = 1}^{n} \sum_{j = 1}^{n} {(s_{i, j} - {\vec{h}}_{i} \cdot {\vec{h}}_{j})}^{2} = {‖ S - H H^{⊤} ‖}_{F}^{2}$
$v_i$ $v_j$ $s_{i,j}$ $s_{i,j} = \mathbf{\vec a}_i \cdot \mathbf{\vec a}_j$ 。
$O(n^2)$ $O(n^2)$ top k $O(kn)$ 。
Joint Embedding Representation Learning $\mathcal J_G$ $\mathcal J_A$ ，它们分别建模网络拓扑结构中的节点邻近性、节点属性中的节点邻近性。为了对这两种邻近性互补，形成一个统一的联合空间，我们在以下优化问题中对这两种类型的信息进行联合建模：
$J = J_{A} + λ J_{G} = {‖ S - H H^{⊤} ‖}_{F}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{h}}_{j} ‖}_{2}$
$\lambda$ 用于平衡网络结构损失和属性损失：
- $\lambda \rightarrow 0$ 时，网络拓扑结构不影响最终的节点 embedding，。因此每个节点都可以是一个孤立的 cluster。
- $\lambda\rightarrow +\infty$ embedding $\mathbf{\vec h}_i = \mathbf{\vec h}_j$ ），此时所有节点在embedding 空间中形成单个 cluster 。
$\lambda$ 从而调整 embedding 空间中 cluster的数量。
AANE $\mathbf S$ $\mathbf H \mathbf H^\top$ $\lambda \sum_{(v_i,v_j)\in\mathcal E} w_{i,j}\left\|\mathbf{\vec h}_i - \mathbf{\vec h}_j\right\|_2$ ，该正则化迫使相连的节点在 embedding 空间中彼此靠近。
AANE 仅考虑网络结构的一阶邻近性，无法捕获网络结构的高阶邻近性。
AANE 仅捕获线性关系，未能捕获非线性关系。
AANE 分别独立地建模网络结构邻近性和节点属性邻近性，并未建模二者之间的交互。

1.1.3 加速算法

AANE $\mathcal J$ $\mathbf{\vec h}_i$ 都是可分离（separable）的，因此可以重新表述为双凸优化问题（bi-convex optimization）。
$\mathbf Z = \mathbf H$ $\mathbf{\vec z}_i\in \mathbb R^d$ $\mathbf Z$ $i$ 行。因此有：
${‖ S - H Z^{⊤} ‖}_{F}^{2} = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - H {\vec{z}}_{i}^{⊤} ‖}_{2}^{2}$
则目标函数重写为：
$\begin{matrix} min_{H} \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j} ‖}_{2} \\ s . t . {\vec{h}}_{i} = {\vec{z}}_{i} \end{matrix}$
$\mathcal J$ $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ $2n$ 个更小的凸优化子问题。
$2n$ Alternating Direction Method of Multipliers: ADMM $2n$ 个子问题的updating step 和一个矩阵 updating step 。
$O(n^2)$ 的复杂度，因此对于大型网络是不可行的。
现在我们介绍优化过程的细节。我们首先引入增强的拉格朗日函数：
$L = \sum_{i = 1}^{n} {‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{⊤} ‖}_{2}^{2} + λ \sum_{(v_{i}, v_{j}) \in E} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j} ‖}_{2} + \frac{ρ}{2} \sum_{i = 1}^{n} ({‖ {\vec{h}}_{i} - {\vec{z}}_{i} + {\vec{u}}_{i} ‖}_{2}^{2} - {‖ {\vec{u}}_{i} ‖}_{2}^{2})$
$\mathbf{\vec u}_i\in \mathbb R^d$ $\rho\gt 0$ 为罚项参数。
$\mathbf H,\mathbf Z,\mathbf U$ $\mathcal L$ $\mathbf U$ $\mathbf{\vec u}_i\in \mathbb R^d$ $\mathbf U$ $i$ $v_i$ $k+1$ 个 step 的更新为：
$\begin{matrix} {\vec{h}}_{i}^{(k + 1)} = \arg min_{{\vec{h}}_{i}} ({‖ {\vec{s}}_{i} - {\vec{h}}_{i} Z^{(k)^{⊤}} ‖}_{2}^{2} + λ \sum_{v_{j} \in N (v_{i})} w_{i, j} {‖ {\vec{h}}_{i} - {\vec{z}}_{j}^{(k)} ‖}_{2} + \frac{ρ}{2} {‖ {\vec{h}}_{i} - {\vec{z}}_{i}^{(k)} + {\vec{u}}_{i}^{(k)} ‖}_{2}^{2}) \\ {\vec{z}}_{i}^{(k + 1)} = \arg min_{{\vec{z}}_{i}} ({‖ {\vec{s}}_{i} - H^{(k + 1)} {\vec{z}}_{i}^{⊤} ‖}_{2}^{2} + λ \sum_{v_{j} \in N (v_{i})} w_{j, i} {‖ {\vec{z}}_{i} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2} + \frac{ρ}{2} {‖ {\vec{z}}_{i} - {\vec{h}}_{i}^{(k + 1)} + {\vec{u}}_{i}^{(k)} ‖}_{2}^{2}) \\ U^{(k + 1)} = U^{(k)} + (H^{(k + 1)} - Z^{(k + 1)}) \end{matrix}$
$\mathbf{\vec h}_i^{(k+1) }$ $\mathbf{\vec z}_i^{(k+1) }$ ：
$\begin{matrix} {\vec{h}}_{i}^{(k + 1)} = \frac{2 {\vec{s}}_{i} Z^{(k)} + λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j} {\vec{z}}_{j}^{(k)}}{{‖ {\vec{h}}_{i}^{(k)} - {\vec{z}}_{j}^{(k)} ‖}_{2}} + ρ ({\vec{z}}_{i}^{(k)} - {\vec{u}}_{i}^{(k)})}{2 Z^{(k)^{⊤}} Z^{(k)} + (λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j}}{{‖ {\vec{h}}_{i}^{(k)} - {\vec{z}}_{j}^{(k)} ‖}_{2}} + ρ) I} \\ {\vec{z}}_{i}^{(k + 1)} = \frac{2 {\vec{s}}_{i} H^{(k + 1)} + λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j} {\vec{h}}_{j}^{(k + 1)}}{{‖ {\vec{z}}_{i}^{(k)} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2}} + ρ ({\vec{h}}_{i}^{(k + 1)} + {\vec{u}}_{i}^{(k)})}{2 H^{(k + 1)^{⊤}} H^{(k + 1)} + (λ \sum_{v_{j} \in N (v_{i})} \frac{w_{i, j}}{{‖ {\vec{z}}_{i}^{(k)} - {\vec{h}}_{j}^{(k + 1)} ‖}_{2}} + ρ) I} \end{matrix}$
$\mathbf{\vec h}_i^{(k)}$ $\left\|\mathbf{\vec h}_i^{(k)} -\mathbf{\vec z}_j^{(k)}\right\|_2$ 《Efficient and robust feature selection via joint $l_{2,1}$ -norms minimization》 $\mathbf{\vec h}_i^{(k)} = \mathbf{\vec h}_i^{(k+1)}$ $\mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec h}_i^{(k+1)}$ 足够接近时，停止迭代。
由于原始问题是一个 bi-convex 问题，因此可以证明我们方法的收敛性，确保算法收敛到一个局部极小值点。这里有几点需要注意：
- $\mathbf{\vec z}_i^{(k+1)}$ $\mathbf{\vec h}_i^{(k+1)}$ 。
- $\mathbf{\vec h}_i^{(k+1)}$ 之间是相互独立的。
- $\mathbf S$ $\mathbf{\vec s}_i$ ：
  $\begin{matrix} {\vec{s}}_{i} = ({\vec{a}}_{i} A^{⊤}) ⊙ (\frac{1}{q_{i} \vec{q}}) \\ \vec{q} = (\sqrt{{\vec{a}}_{1} \cdot {\vec{a}}_{1}}, \dots, \sqrt{{\vec{a}}_{n} \cdot {\vec{a}}_{n}}) \end{matrix}$
  $q_i$ $\mathbf{\vec q}$ $i$ $\odot$ 为逐元素积。
$\mathbf H$ $\mathbf A_0$ $\mathbf A_0\in \mathbb R^{n\times 2d}$ $\mathbf A$ $2d$ 列。
AANE $2n$ $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ $n$ updating step $t$ worker $\mathbf{\vec h}_i^{(k+1)} - \mathbf{\vec h}_i^{(k)}$ $\mathbf{\vec u}_i^{(k+1)} - \mathbf{\vec u}_i^{(k)}$ 足够小时，停止迭代。
整体而言，AANE 优化算法有几个不错的特性：
- $\mathbf{\vec h}_i$ $\mathbf{\vec z}_i$ $n$ 个 updating step 彼此独立。因此，在每次迭代中，global coordination 可以将任务并行分配给 worker 并从这些 worker 中收集结果，而无需考虑任务顺序。
- 其次，所有 updating step 都具有低复杂度。
- 最后，该方法快速收敛到一个合适的解。
AANE 优化算法：
- 输入：
  - $\mathcal G(\mathcal V,\mathcal E,\mathbf W)$
  - $\mathbf A\in \mathbb R^{n\times m}$
  - embedding $d$
  - $\epsilon$
- embedding $\mathbf H\in \mathbb R^{n\times d}$
- 步骤：
  - $\mathbf A$ $2d$ $\mathbf A_0\in \mathbb R^{n\times 2d}$ 。
  - $k=0$ $\mathbf H^{(k)}$ $\mathbf A_0$ $\mathbf U^{(0)} = \mathbf 0$ $\mathbf Z^{(k)} = \mathbf H^{(k)}$ 。
  - $\mathbf S\in \mathbb R^{n\times n}$ 。
  - $\left\|\mathbf{\vec h}_i^{(k+1)} - \mathbf{\vec h}_i^{(k)}\right\|^2\le \epsilon$ $\left\|\mathbf{\vec u}_i^{(k+1)} - \mathbf{\vec u}_i^{(k)}\right\|^2\le \epsilon$ 。迭代步骤为：
    - $\mathbf Z^{(k)^\top} \mathbf Z^{(k)}$ 。
    - $n$ $t$ worker $i=1,\cdots,n$ $\mathbf{\vec h}_i^{(k+1)}$ 。
    - $\mathbf H^{(k+1)^\top} \mathbf H^{(k+1)}$ 。
    - $n$ $t$ worker $i=1,\cdots,n$ $\mathbf{\vec z}_i^{(k+1)}$ 。
    - $\mathbf U^{(k+1)} \leftarrow \mathbf U^{(k)} + \left(\mathbf H^{(k+1)} - \mathbf Z^{(k+1)}\right)$ 。
    - $k\leftarrow k+1$ 。
  - $\mathbf H$ 。
AANE $n=6$ $\mathbf S\in \mathbb R^{n\times n}$ $\mathbf H$ $\mathbf H^\top$ $\mathbf H$ $\mathbf W$ $\mathbf H$ 中更靠近。
$2n=12$ $n=6$ $n=6$ $t=3$ 个 worker。在最终输出中，节点 1 和节点 3 分别分配了相似的向量 [0.54, 0.27] 和 [0.55, 0.28]，这表明这两个节点在原始网络和属性的联合空间（joint space）中彼此相似。
算法复杂度：由于AANE 的优化算法是一个典型的 ADMM 算法，因此训练算法在迭代很少的几个 step 之后就能收敛到很高的精度。
- $O(d^2n)$ 。
- $\mathbf{\vec h}_i$ $O(d^3+dn+d N_i)$ $\mathbf Z^{(k)^\top}\mathbf Z^{(k)}$ $O(n^2/t)$ $d\ll n$ $O(n)$ 。
  $O(n)$ 。
AANE $O(n\times n_A + n^2/t)$ $n_A$ $\mathbf A$ $t$ 为 worker 数量。
AANE $O(n^2)$ ，这对于大型图（如上亿节点）而言是不可行的。

1.2 实验

数据集：
- BlogCatalog 数据集：一个博客社区，用户彼此关注从而构成一个网络。用户可以生成关键词来作为其博客的简短描述，我们将这些关键词作为节点（用户）的属性。用户也可以将其博客注册为指定的类别，我们将这些类别作为用户的 label 。没有关注或者没有指定类别的用户从网络中剔除。
- Flickr 数据集：一个在线图片共享社区，用户彼此关注从而构成一个网络。用户可以为图片指定 tag ，我们将这些 tag 作为节点（用户）的属性。用于可以加入不同的组，我们将这些组作为用户的 label 。
- Yelp 数据集：一个类似大众点评的本地生活评论网站。我们基于用户的社交关系来构成一个网络。我们从用户的评论中利用bag-of-word 抽取文本信息来作为用户的属性信息。所有本地商家分为 11 个主要类别，如 Active Life, Fast Food, Services... ，我们将用户所点评的商家的类别作为用户的 label 。
这些数据集的统计信息如下所示。
baseline 模型：为评估节点属性的贡献，我们对比了 DeepWalk,LINE,PCA 等模型，这些baseline 模型仅能处理网络结构或者节点属性，无法处理二者的融合；为了对比AANE 的效率和效果，我们对比了其它的两种 ANE 模型 LCMF, MultiSpec 。
- DeepWalk：使用 SkipGram 学习基于图上的、截断的随机游走序列从而得到图的 embedding 。
- LINE：建模图的一阶邻近度和二阶邻近度从而得到图的 embedding 。
- PCA $\mathbf A$ 的 top d 个主成分作为图的 embedding 。
- LCMF：它通过对网络结构信息和顶点属性信息进行联合矩阵分解来学习图的 embedding 。
- MultiSpec：它将网络结构和顶点属性视为两个视图（view），然后在两个视图之间执行 co-regularizing spectral clustering 来学习图的 embedding 。
实验配置：在所有实验中，我们首先在图上学习顶点的 embedding，然后根据学到的 embedding 向量作为特征，来训练一个SVM 分类模型。分类模型在训练集上训练，然后在测试集上评估Macro-F1 和 Micro-F1 指标。
在训练SVM 时，我们使用五折交叉验证。所有的顶点被随机拆分为训练集、测试集，其中训练集和测试集之间的所有边都被移除。考虑到每个顶点可能属于多个类别，因此对每个类别我们训练一个二类 SVM 分类器。
embedding $d=100$ 。所有实验均随机重复 10 并报告评估指标的均值。
属性信息的影响：我们分别将分类训练集的规模设置为 10%,25%,50%,100%。其中，由于 Yelp 数据集的规模太大，大多数ANE 方法的复杂度太高而无法训练，因此我们随机抽取其 20% 的数据并设置为新的数据集，即 Yelp1 。
所有模型的分类效果如下所示：
所有模型在完整的 Yelp 数据集上的分类效果如下所示，其中 PCA,LCMF,MultiSpec 因为无法扩展到如此大的数据集，因此不参与比较：
结论：
- 由于利用了顶点的属性信息，因此LCMF,MultiSpec,AANE 等属性网络embedding 方法比 DeepWalk,LINE 等网络结构embedding 方法效果更好。例如，在 BlogCatalog 数据集上，结合属性信息的 AANE 在 Micro-average 得分上比 DeepWalk 相对提升 38.7%、比 LINE 提升 36.3%。
- 我们提出的 AANE 始终优于 LCMF, MultiSpec 方法。例如，在 Flickr 数据集上，AANE 比 LCMF 相对提升 18.2%。这可以解释为通过分解网络矩阵（network matrix ）和属性矩阵（attribute matrix）学到的潜在特征是异质的，并且很难将它们直接结合起来。
- LCMF,MultiSpec 方法无法应用于大型数据集。
效率评估：然后我们评估这些方法的训练效率。我们将 AANE 和 LCMF,MultiSpec 这些属性网络 embedding 方法进行比较。下图给出了这些模型在不同数据集上、不同顶点规模的训练时间。
结论：
- AANE 的训练时间始终比 LCMF 和 MultiSpec 更少。
- 随着顶点规模的增加，训练效率之间的 gap 也越来越大。
- AANE 可以在多线程环境下进一步提升训练效率。
AANE $O(n^2)$ AANE $O(1)$ 的复杂度并不会带来本质上的效率提升。
$\lambda$ $d$ 的影响。
- $\lambda$ $\lambda$ $10^{-6}$ $10^3$ ，对应的分类 Micro-F1 效果如下所示。
  - $\lambda$ 0 $\lambda$ 的增加，AANE 开始根据拓扑结构对节点进行聚类，因此性能不断提升。
  - $\lambda$ 接近 0.1 时，模型在 BlogCatalogFlickr $\lambda$ $\lambda$ 倾向于使得所有顶点具有相同的 embedding 。
- embedding $d$ $d$ 从 20 变化到 180，对应的分类 Micro-F1 效果如下所示。我们仅给出 Flickr 数据集的结果，BlogCatalog 和 Yelp 的结果也是类似的。
  可以看到：
  - $d$ 为多少，DeepWalk 和 LINE 都不如属性网络 embedding 方法（AANE,LCMF,MultiSpec ）
  - $d$ 为多少，AANE 的效果始终最佳。
  - $d$ 增加时，这些模型的效果先提高、然后保持稳定。这表示低维 embedding 已经能够捕获大多数有意义的信息。